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BESCHREIBUNG 

Verfahren und System zum Auslesen von Daten 

Die Erfindung betrifift ein System und ein Verfahren zum Auslesen von Daten aus ei- 
nem Dokument und ein Verfahren zum Erfassen von Daten. 

Eine Vielzahl von Daten sind heute in elektronischer Form gespeichert. Dies umfesst 
einerseits die Speicherung in Datenbanken zur gezielten Abfrage eines oder mehrerer 
Datensatze mittels eines Computers. Andererseits umfasst dies aber auch Dokumente, 
die zum Abruf und zur Betrachtung durch menschliche Benutzer vorgesehen sind, wie 
HTML- oder XML-Dateien, Tabellen, strakturierte Texte oder Arbeitsblatter einer Ta- 
beUenkalkulation. Wie die vorgenannten Datenbanken sind die letztgenannten elektro- 
nischen Dokumente zwar auch coinputerlesbar. Fiir die Abfrage einzekter Daten aus 
einem solchen Dokument (bspw. das Auslesen eines einzelnen Eintrags aus einer Tabel- 
le) gibt es jedoch kein spezielles Abfrage-Ihterface. Das automatische Auslesen von 
Daten aus solchen Dokumenten, die hier - im Gegensatz zu Datenbanken - als schwach 
strukturiert bezeichnet werden sollen, erfordert ublicherweise die Erstellung einer Ab- 
frage-Anweisung in einer geeigneten Computersprache, bspw. ein PERL-Skript oder 
einen regularen Ausdruck, der von bekannten Programmen wie grep, sed oder awk in- 
terpretiert wird. Die Erstellung einer derartigen Anweisung erfordert Programmier- 
kenntnisse lmd ist fur den Benutzer wenig komfortabel. 

Das Ziel des Auslesens von Daten aus einem Dokument ist in der Regel nicht ledigjich 
ein einmaliges Auslesen der Daten. Sondern es werden bevorzugt mehrfach mit zeitli- 
chfim Abstand Daten aus solchen Dokumenten ausgelesen, die sich mit der Zeit andern, 
d. h. aktualisiert werden. Bspw. kann ein mit einer bestimmten Adresse (URL) in einem 
Computer-Netzwerkbezeichnetes Dokument (z. B. eine HTML-Seite) eine stets aktuel- 
le Tabelle mit Wetterdaten verschiedener Stadte aufweisen. Hierbei werden die ange- 
zeigten Daten, bsjpw. die Temperatur, sich von Tag zu Tag unterscheiden. Unter Um- 
standen ist es sog^r moglich, dass sich die absolute Lage eines Bereichs durch Umfor- 
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matierung andert. So kann bspw. der Temperaturwert von Paris an einem Tag in der 
dritten Zeile in Spalte 2 stehen, und an einem anderen Tag in der zweiten Spalte einer 
anderen Zeile. 

5 Die hier besonders interessietende Klasse von Dokumenten, bei denen die darin enthal- 
tenen Ihformationen sich mit der Zeit andern konnen, soil hier als "volatil" bezeichnet 
werden. 



10 



Es ist Aufgabe der Erfindung, ein System und ein Verfahren zum Auslesen von Daten 
aus einem Dokument und ein Verfahren zum Erfassen von Daten anzugeben, mit dem 
ein Benutzer auf einfache Weise eine Abfrage-Anweisung erstellen kann, mit der Daten, 
insbesondere aus schwach strukturierten, volatilen Dokumenten abgefragt werden kon- 



nen. 



1 5 Diese Aufgabe wird gelost durch ein System nach Anspruch 1, ein Verfahren zum Aus- 
lesen von Daten nach Anspruch 9 und ein Verfahren zum Erfassen von Daten nach An- 
spruch 10. Abhangige Anspriiche beziehen sich auf vorteilhafte Ausfuhrungsformen der 
Erfindung. 



20 



Bei der erfmdungsgemaBen Losung legt der Benutzer durch eine von einem Computer 
mit einem darauf ablaufenden Programm verarbeitete Eingabe fur mindestens ein Do- 
kument fest, in welchem Bereich sich die ihn interessierenden Daten befinden. Mit Hil- 
fe des Programms wird automatisch eine Abfrage-Anweisung Merfur generiert. 

25 Der Computer hat Zugriff auf mindestens ein Dokument. Bevorzugt ist der Computer an 
ein Computer-Netzwerk, bspw. das Internet angeschlossen, und greift fiber das Compu- 
ter-Netzwerk auf ein entfernt liegendes Dokument zu. 

Das auf dem Computer ablaufende Programm zeigt bspw. das Dokument an und fordert 
30 den Benutzer auf, den interessierenden Datenbereich festzulegen, bspw. durch Madde- 
ning mit einer Zeigereinheit (wie einer Maus). Optional kann der Benutzer zusatzlich 
auch eine zweite Eingabe vornehmen, mit der ein oder mehrere weitere Bereiche, hier 
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bezeichnet als Strukturbereiche, festgelegt werden, die beim Auffinden des gewunsch- 
ten Bereichs hilfreich sein konnen. Bspw. kann es sich bei diesem Strakturbereichen um 
Zeilen- oder Spaltenkopfe handeln, die in einer Tabelle zu einer Zelle mit dem ge- 
wiinschten Inhalt fiihren. 

5 

ErfindungsgemaB wird anhand der Eingaben des Benutzers automatisch eine Abfrage- 
Anweisung erzeugt Die Abfrage-Anweisung wird in einer fur einen Computer lesbaren 
und durch ein geeignetes Interpreter-Programm ausfuhrbaren Form geliefert und bevor- 
zugt abgespeichert. Beim Ausfiihren der Abfirage-Anweisung wird der festgelegte Da- 
10 teribereich des Dokuments ausgelesen. 1st vom Benutzer zusatzlich ein Stmkturbereich 
vorgegeben, so enthalt die erstellte Abftage-Anweisung bevorzugt eine Adressierungs- 
anweisung entsprechend der Position oder des Ihhalts des vorgegebenen Strukturbe- 
reichs, 

1 5 GemaB einer Weiterbildung der Erfindung ist fur die Abfrage- Anweisung eine spezielle 
Gxammatik vorgegeben. Hierbei setzt sich ein gultiger Ausdruck aus einer vorgegeber 
nen Reihenfolge von Terminalzeichen zusammen. Die Grammatik enthalt bevorzugt 
Adressierungsanweisungen, mit denen bestimmte Positionen eines Dokuments einer- : 
seits absolut (bspw.: Dokumentanfeng) und andererseits auch relativ zu einem vorher 

20 bezeichneten Bereich (bspw.: zwei Zeilen tiefer) adressiert werden. 

Die verwendete Grammatik ist bevorzugt von einfacher Struktur. Hierbei ist die Gram- 
matik bevorzugt auf den Typ des interessierenden Dokuments abgesthnmt Bspw. kann 
eine spezielle Grammatik zur Adressierung in FlieBtexten vorgesehen sein, die dann 
25 bspw. eine Adressierung auf Wort- und Satzbasis vorsehen kann (bspw. : zweites Wort 
im dritten Salz). Oder es kann eine spezielle Grammatik fur Tabellen vorgesehen sein, 
mit der eine Adressierung auf Zeilen- und Spaltenbasis besonders gut moglich ist 
(bspw.: drittes Feld in der Zeile, die mit "Paris" beginnt). 

30 GemaB einer Weiterbildung der Erfindung erfolgt die automatische Erstellung der Ab- 
frage-Anweisung, indem mehrere giiltige Abfrage-Anweisungen der vorgegebenen 
Grammatik erzeugt werden und diese Abftage-Anweisungen daraufhin uberpriift wer- 
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den, ob bei ihrer Ausffihrung der interessierende Datenbereich des Dokuments ausgele- 
sen wird. Eine der erfolgreichen Abfrage-Anweisungen wird ausgewahlt, bspw. anhand 
eines Komplexitatskriteriums. 

5 Bevorzugt erfolgt die Erstellung einer automatischen Abfrage-Anweisung nicht ledig- 
lich anhand eines Dokumentes, sondern es werden mehrere Trainingsdokumente verar- 
beitet So kann die Wahrscheinlichkeit erhoht werden, dass die automatisch erstellte 
Abfrage-Anweisung auch bei volatilen Dokumenten stets die gewiinschten Daten liefert, 
ohne dass eine standige Anpassung erforderlich ist 

10 

Eine einmal erstellte und bevorzugt mit mehreren Trainingsdokumenten verifizierte 
Abfrage-Anweisung wird bevorzugt abgespeichert. Sie kann dann im zeitlichen Ab- 
stand wiederholt ausgefuhrt werden, urn aus dem adressierten Bereich eines standig 
aktualisierten Dokuments stets den aktueUen Wert auszulesen. Der Wert kann aufviele 
15 vetschiedene Arten weiterverarbeitet werden. So konnen bspw. aktuelle Ihformationen 
von verschiedenen, fiber ein Computer-Netzwerk abrufenbaren Dokumenten gesammelt 
und zu einer nach personlichen Praferenzen zusammengestellten Informationssarnmlung 
verarbeitet werden. 

20 Nachfolgend wird ein Ausffihrungsbeispiel der Erfindung anhand von einer Zeichnung 
naherbeschrieben. Hierbei zeigt: 

Fig. 1 einen Graph zur Herleitung einer Abfrage-Anweisung. 

25 In dem Ausffihrungsbeispiel sollen in ein automatisch erstelltes personliches Radiopro- 
gramm, wie es bspw. in der WO 99/39466 beschrieben ist, aktuelle Wetterinformatio- 
nen eingefugt werden. Die hierfur benotigten Wetter-Informationen sind auf verschie- 
denen Intemet-Seiten (inML-Dokumenten) standig aktuell verfugbar. Dem Benutzer 
soli die Moglichkeit gegeben werden, mittels eines Computers auf einfache Weise die 

30 Ihformationen festzulegen, die dann in seinem taglichen personlichen Radioprogramm 
(mittels Sprachsynthese) eingeblendet werden sollen. 
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Hierftir wird ein Computersystem mit Eingabemitteln (bspw. Tastatur, Maus) und Aus- 
gabemitteln (bspw. Monitor) verwendet. Der Computer ist an das Internet angeschlos- 
sen. Auf dem Computer ist ein Programm installiert, mit dem der Benutzer auf einfache 
5 Weise eine Abfrage-Anweisung fur die ihn interessierenden Daten formulieren und die- 
se an den Dienstleister ubermitteln kann, der die Zusammenstellung des personlichen 
Radioprogramms fiir ihn durchfiihrt Die Funktion dieses Programms wird nachfolgend 
im Detail beschrieben. 

10 Fiir die zu formulierende Abfrage ist eine Grammatik vorgegeben. Diese kann beliebig 
definiert werden. Eine solche Grammatik umfasst Terminalzeichen der folgenden Ar- 
ten: 

1 . Absolute Adressierung, urn einen absolut festgelegten Bereich innerhalb eines Do- 
15 kuments zu adressieren (bspw, TOP, BOTTOM, ROOT). 

2. Relative Adressierung, urn Orte oder Bereiche innerhalb eines Dokuments ausge- 
hend von einem Ursprungsort oder -bereich zu adressieren (bspw. next paragraph, 
previews_word, next_list Jtem, cell_up, to JBrstjrow, parentjiode, first_child, 

20 next_sibling). 

3. Suchkommandos, urn Orte bedingt zu adressieren. Ein Suchkommando besteht aus 
einem Suchbereich (bspw. inj>aragraph, in__subtree, within_column) und einer Be- 
dingung (bspw. contains__text (T), has_format (F), is_a_number, is_smaller_than 

25 (n), carries_xml_tag (T)), ggfe. einen relativen Pfad zu dem Ort, wo die Bedingung 
zartreffen soli (bspw. die relative Adressierung wie oben unter 2.) und einen Indika- 
tor, mit dem bei mehreren Treffern ein Einzelner ausgewahlt werden kann (bspw. 
first_occurrence, last_occurrence, nonoccurrence (n)). 

^^ser Kombination von mehreren der oben genannten Terminalzeichen lassen sich 
Abfrage-Anweisungen fiir verschiedene Dokumente aufbauen. Bspw. ist fiir den Fach- 
mann ersichtlich, dass eine Abfrage-Anweisung der folgenden Art aufgebaut werden 
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kann: "Nimm die dritte Tabelle des Dokuments und wahle dort das erste Vorkommen 
einer Zahl, die von einem $-Zeichen gefolgt ist in einer Zelle, die sich in der Reihe be- 
findet, deren erster Spalteneintrag "Kanada" lautet". Eine solche Abfrage-Anweisung 
konnte beispielsweise wie folgt lauten: 

TOP to_nextjable to_next_table tojnext Jable 
find (injable, is _a_number and hasjformat ("$") 

and (tojEfrst_column contains_text ("Kanada")), 

first_occurrence) 

Das auf dem Computer ablaufende Programm nimmt Eingaben des Benutzers entgegen, 
mit denen in einem Dokument die interessierenden Daten bezeichnet werden. Das Pro- 
gramm erstellt dann automatisch eine Abftage-Anweisung. Die Abfrage-Anweisung ist 
in der jeweils vorgegebenen Grammatik formuliert. Bei entsprechender Ausfuhrung, 
d.h. Durchlauf durch einen entsprechenden Interpreter, in dem jeweiligen Dokument 
liefert sie die bezeichneten Daten. 

Bspw. wohnt der Benutzer in Frankfurt und mochte im Rahmen seines personlichen 
Radioprogramms jeden Tag iiber die dortigen aktuellen meteorologisclien Werte wie 
Temperatur und Luflfeuchtigkeit informiert werden. Er sucht eine im Internet abrufbare 
HTML-Seite auf, in der diese Informationen taglich aktuell angegeben werden. Die 
nachfolgende Tabelle gibt beispielhaft den Tnhalt einer solchen Seite wieder: 



Ort 


Temperatur (°C) 


FeucMgkeit (%) 


Wolken (%) 


Aachen 


24 


90 


80 


Berlin 


18 


70 


30 


Frankfurt a.M. 


22 


60 


20 


Koln 


23 


50 


95 



Um die Informationen iiber die aktuelle Feuchtigkeit in das personliche Radioprogramm 
einzufiigen, erstellt der Benutzer an dem Computer mit dem Programm eine Abfirage, 
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die dem Dienstleister zur Erstellung des personlichen Radioprogramms ubermittelt 
wird. Bei der Ausfubrung des Programms raft der Benutzer das Dokument mit der oben 
angegebenen Tabelle ab. Er markiert den interessierenden Wert, hier den Wert fur die 
relative Luftfeuchtigkeit in Frankfurt (60, die Markierung ist als Unterstreichung darge- 
stellt) mit der Maus. Zusatzlich markiert der Benutzer den Zeilenkopf ("Frankfurt") als 
Strukturbereich, der bei der Adressierung des interessierenden Werts verwendet werden 
kann. 

Aus diesen Informationen erstellt das Programm automatisch eine Abfrage-Anweisung 
nach der jeweils vorgegebenen Grammatik. Nachfolgend ist die Arbeitsweise des Pro- 
gramms als Pseudo-Code angegeben: 

1 . SET TargetExpression := <empty> 

SET DocumentsAndMarksList := <empty> 

2. FORdIN{AlleTrainingsdokumente}DO 

3 . IF TargetExpression eine Abfrageanweisung ist , die zu deinem giiltigen Eintrag 
im Trainingsdokument d fiihrt 

THEN Bereich anzeigen, auf den TargetExpression zeigt 

Benutzer fragen, ob der angezeigte Bereich den gewiinschten Daten entspricht 

IF Benutzer antwortet mit "ja" THEN GOTO 5 

4. Den Benutzer urn Eingabe bitten, mit der der gewunschte Bereich im 
Trainingsdokument d markiert wird. Optional kann der Benutzer zusatzlich eine 
oder mehre weitere Madrierungen von Strukturbereichen vomehmen, die bei der 
Abftage beriicksichtigt werden sollen (Wenn er dies nicht tut, SET A : = 
<empty>) 

5. Das Tripel (d, M, A) an DocumentsAndMarksList anhangen 

6. FOR alle Abfiageanweisungen L, die aus der Grammatik G herleitbar sind und 
die eine vorgegebenes KomplexitatsmaB nicht iiberschreiten 
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7. SET count := 0 



8. FOR alle Tripel (t.A, t.M, t.D) IN DocumentsAndMarksList DO 

5 

9. IF (MARKING DUE TOJLOCATOR EXPR(t.D, L) = t.M) 
AND (t.A c LOCATOR_EXPRESSION_PATH (tX>, L)) 
THEN count+4- 

10 10. DONE (Nachstes Tripel in Schritt 8 bearbeiten) 

11. IF (count> bestcount) 

OR ((count = bestcount) AND (COMPLEXlTY(L) < COMPLEXITy(bestL)) 
THEN 

1 5 SET bestL := L ; SET bestcount := count 

12. DONE (mit der nachten Abfrageanweisung in Schritt 6 fortfahren) 

13. DONE (nut dem nachsten Dokument in Schritt 2 fortfahren) 

20 

14. RETURN bestL 



Dieses Programm benutet die folgenden Funktionen: 

25 MARKINGJDUEJTO_LOCATOR-EXPR(pokurnent d, Abfrageanweisung): 

Diese Funktion interpretiert die Abfrageanweisung und gibt die Daten des Dokuments d 
zuruclj; die an der durch die Abfrageanweisung bezeichneten Stelle stehen. 

LOCATOR_EXPRESSION_PATH (Dokument d, Abfrageanweisung): 
30 Diese Funktion gibt einen Satz von Bereichen zuriick^ die durchlaufen werden, wenn 
die Abfreageanweisung im Dokument d ausgefuhrt wird. 

COMPLEXrTY(Abfrageanweisung L): 

Ein KomplexitatsmaB fur die Abfrageanweisung L, beispielsweise die Lange des 
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Ausdrucks. Dieses KomplexitatsmaB wird zur Auswahl verwendet, wenn sonst mehrere 
Abfrageanweisungen gleichwertig sind. 

Das Programm axbeitet mit einer Anzahl von Trainingsdokumenten. Hierbei handelt es 
sich bevorzugt urn verscbiedene Dokumente, die unter derselben URL zu verscbiedenen 
Zeitpunkten abrufbar waren, so dass durch den zur Verffigung stebenden Satz an Trai- 
ningsdokumenten moglichst gut die Volatility des interessierenden Dokuments abge- 
deckt wird. Das Programm kann aber auch benutzt werden, wenn nur wenige Trainings- 
dokumente, oder sogar nur ein einzemes Trainingsdokument zur Verfiigung stehen. Die 
auBere Schleife (2. - 13.) wird dann nur entsprechend wenige Male durchlaufen. 

Das oben als Pseudo-Code dargestellte Programm arbeitet wie folgt: 

Eine auBere Schleife (2. - 13.) wird fur alle vorhegenden Trainingsdokumente durch- 
laufen. Liegt bereits eme Abfrage-Anweisung TargetExpression vor, die auf einen gul- 
tigen Eintrag fuhrt, so wird dieser Bereich markiert und der Benutzer gefragt, ob dies 
der gewunschte Bereich ist (Schritt 3). Sonst wird der Benutzer gebeten, semerseits den 
gewiinschten Bereich (und optional zusalzlich einen oder mehrere Strukturbereiche) zu 
markieren (Schritt 4). 

Die Tripel aus Trainingsdokumenten, gewiinschten Bereichen und (optional) Struktur- 
bereichen werden an erne Liste DocumentsAndMarksList angehangt (Schritt 5). 

Iin Schritt 6 werden aus der Grammatik G eine Anzahl von Abfrage-Anweisungen L 
erzeugt. Bevorzugt sind dies samtiiche gultigen Ausdrucke der Grammatik G, die ein 
vorgegebenes KomplexitatsmaB (bspw. die Gesamtlange des Ausdrucks) nicht uber- 
schreiten. Aus der Definition der Grammatik ist es fur den Fachmann leicht moglich, 
automatisch giiltige Ausdrucke zu erzeugen. 



Fiir jede der erzeugten Abfrage-Anweisungen L werden alle vorhegenden Tripel (Do- 
kumente mit Zielbereichen und ggf. Strukturbereichen) uberpruft, ob der Ausdruck zu 
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gewiinschten Ergebnis fuhrt. 1st dies der Fall, wird ein Zahler (count) hochgezahlt 
(Schritte8-10). 

Der Erfolg einer Abfrage-Anweisung, d. h. die Anzahl korrekter Markierungen in den 
5 zur Verfiigung stehenden Tiainingsdokumenten, wird mit dem bisher hochsten Erfolg 
(Best Count) verglichen. Bei einem hoheren Wert wird der aktuelle Ausdruck als bester 
Kandidat behalten. Bei einem Gleichstand mit dem bisherig besten Kandidaten wird der 
Ausdruck mit der niedrigsten Komplexitat behalten (Schritt 1 1). 

10 Am Ende wird der auf diese Weise ermittelte beste Ausdruck als gemndene Abfrage- 
Anweisung zuriickgegeben (Schritt 14). 

Nachfolgend soli der Ablauf des Programms anhand eines einfachen Beispiels illustriert 
werden: 

15 

Nachfolgend ist beispielhaft einfache Grammatik angegeben, die beispielsweise fur 
Tabellen-Strukturen verwendet werden konnte. Terminalzeichen sind in 
Kleinschreibweise, Nicht-Terminalzeichen in GroBbuchstaben angegeben: 

20 EXPRESSION ::= top_left_cell ROW HEADER SEARCH EXPR 

ROW HEADER SEARCH EXP ::= find (within_column, contains_text(#)) 

ROW_ELEMENT_SELECTION 

25 ROW ELEMENT SELECTION ::= select_entire_cell | 

celljeft ROWELEMENTSELECTION 

Wird der oben angegebene Algorithmus mit dieser Grammatik auf die oben dargestellte 
Tabelle angewendet, in der als Zielbereich die Zahl 60 und als Stnikturbereich das Wort 
30 Trankmrt" marMert sind, so konnte bspw. die gelieferte Abfrage-Anweisung 
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TOP find (within column, contains text ('Trankfurt")) 
celljright celljright select_entire_cell 

wie in Fig. 1 dargestellt aus der Gxammatik abgeleitet werden. ffierbei wird der Inhalt 
5 "Frankfurt" des markierten Strukturbereichs in eine "find"-Anweisung umgesetzt, mit 
der in der ersten Spalte nach dem Wort "Frankfurt" gesucht wird (das Zeichen "#" in der 
Grammatik wird durch den Inhalt des selektierten Strukturbereichs "Frankfurt" ersetzt). 

Ausgehend von der gefundenen Zelle befindet sich die gesuchte Zelle mit dem Inhalt 
10 "60" zwei Zellen weiter rechts, d. h. sie wird durch zwei Aufrufe von celljright erreicht. 
Die so gefundene Zelle wird als ganzes markiert und liefert den gewiinschten Inhalt 
"60". 
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PATENTANSPROCHE 



1. System zum Auslesen von Daten aus einem Dokument mit 

- mindestens einem Computer mit Anzeige- und Eingabemitteln zur Bedienung 
durch einen Benutzer, 

- und Mitteln zum Zugriff auf mindestens ein Dokument, 

- und Programm-Mitteln, durch die mindestens eine erste Eingabe des Benutzers 
verarbeitet wird, mit der ein auszulesender Datenbereich des Dokuments festge- 
legt wird, 

- wobei durch die Programm-MIttel automatisch eine Abfiage-Anweisung zum 
Auslesen des festgelegten Datenbereiches erstellt wird, so dass bei Ausfiihrung 
der Abfrage-Anweisung der festgelegte Datenbereich des Dokuments ausgelesen 
wird. 

2. System nach Anspruch 1 , bei dem 

- die Programm-Mittel auch eine zweite Eingabe des Benutzers verarbeiten, mit 
der mindestens ein Strukturbereich des Dokuments festgelegt wird, der bei der 
Festlegung des Datenbereichs verwendet wird, 

- wobei die von den Programm-Mitteln erstellte Abfrage-Anweisung eine Adres- 
sierungsanweisung entsprechend der zweiten Eingabe enthalt 

3. Sj^stem nach einem der vorangehenden Anspruche, bei dem 

- fur die Abfrage-Anweisung eine Grammatik vorgegeben ist, 

- wobei die Grammatik mindestens eine absolute Adressierungsanweisung und 
mindestens eine relative Adressierungsanweisung aufweist 
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4. System nach einem der vorangehenden Anspriiche, bei dem 

- bei der Erstellung der Abftage-Anweisung eine Anzahl von giiltigen Abfrage- 
Anweisungen einer vorgegebenen Grammatik erzeugt werden, 

- und diese Abftage-Anweisung daraufhin uberpriift werden, ob bei ihrer Ausfuh- 
rung der gewiinschte Datenbereich des Dokuments ausgelesen wird, 

- wobei unter den Abfrage-Anweisungen, bei deren Ausfiihrung der gewiinschte 
Datenbereich des Dokuments ausgelesen wird, eine Abftage-Anweisung ausge- 
wahlt wird 

5. System nach Anspruch 4, bei dem 

- die Abftage-Anweisung nach einem Komplexitatskriterium ausgewahlt wird. 

6. System nach einem der vorangehenden Anspriiche, bei dem 

- der Computer auf mehrere Dokumente zugreift, 

- wobei eine oder mehrere Abfrage-Anweisungen uberpriift werden, bei wie vie- 
len der Dokumente der bei ihrer Ausfiihrung ausgelesene Bereich die vom Be- 
nutzer gewunschten Daten enthalt 

7. System nach einem der vorangehenden Anspriiche, bei dem 

- der Computer an ein Computer-Netzwerk angeschlossen ist, so dass er fiber das 
Computer-Netzwerk auf Dokumente zugreifen kann. 



8. System nach einem der vorangehenden Anspriiche, bei dem 

- Mittel zum Abspeichem der Abftage-Anweisung vorhanden sind. 
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9. Verfahren zum Auslesen von Daten aus einem Dokument, bei dem 

- auf mindestens einem Computer mit Anzeige- und Eingabemitteln zur Bedie- 
nung durch einen Benutzerund Mitteln zum Zugriff auf ein Dokument, 

- Programm-Mittel ausgefiihrt werden, durch die mindestens eine erste Eingabe 

5 des Benutzers verarbeitet wird, mit der ein auszulesender Datenbereich des Do- 

kuments festgelegt wird, 

- wobei durch die Programm-Mittel automatisch eine Abfrage-Anweisung zum 
Auslesen des festgelegten Datenbereiches erstellt wird, so dass bei Ausfuhrung 
der Abfrage-Anweisung aus dem Dokument der festgelegte Datenbereich ausge- 

10 lesen wird. 

10. Verfahren zum Erfessen von Daten, bei dem 

- mit dem Verfahren gemaB Anspruch 9 eine Abfrage-Anweisung erstellt wird, 

- und die Abfrage-Anweisung abgespeichert wird, 

15 - und die Abfrage-Anweisung im zeitlichen Abstand wiederholt ausgefiihrt wird. 
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ZUSAMMENFASSUNG 

System und Verfahren zum Auslesen von Daten 

Beschrieben werden ein System und ein Verfahren zum Auslesen von Daten aus einem 
5 Dokument und ein Verfahren zum Erfassen von Daten. Um Daten, die in volatilen (d h. 
mit der Zeit veranderlichen) und schwach strukturierten Dokumenten (bspw. HTML- 
Seiten) vorhanden sind auszulesen, wird ein System mit einem Computer mit Anzeige- 
und Eingabemitteln zur Bedienung durch einen Benutzer vorgeschlagen. Der Computer 
kann auf mindestens ein Dokument zugreifen. Auf dem Computer lauft ein Programm 

10 ab 3 durch das mindestens eine erste Eingabe des Benutzers verarbeitet wird, mit der ein 
auszulesender Datenbereich des Dokuments festgelegt wird. Das Programm erstellt au- 
tomatisch eine Abfrage-Anweisung zum Auslesen des festgelegten Datenbereichs. Die 
Abfrage-Anweisung kann bspw. gespeichert werden. Bei Ausfiihrung der Abfrage- 
Anweisung wird der festgelegte Datenbereich des Dokuments ausgelesen. Dies kann im 

1 5 zeiUichen Abstand wiederholt durchgefiihrt werden. 

Fig. 1 
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